机器学习基础

人工智能、机器学习和深度学习机器学习是人工智能的一个实现途径深度学习是机器学习的一个方法（神经网络）发展而来深度学习源自神经网络中的卷积网络

深度学习 : 机器学习的分支，人工神经网络为基础，对数据的特征进行学习的方法

机器学习和深度学习的区别 a. 特征抽取： i. 人工的特征抽取的过程 i.深度学习：自动的进行特征抽取 b. 数据量 i. 机器学习：数据少，效果不是特别好 i.深度学习：数据多，效果更好

一个神经元的功能是求得输入向量与权向量的内积后，经一个非线性传递函数得到一个标量

主要分支介绍 1.计算机视觉 eg:人脸识别 2.自然语言处理语音识别语义识别 3.机器人

工作流程 1.获取数据 2.数据基本处理 3.特征工程 4.机器学习（模型训练） 5.模型评估

获取到的数据集介绍 1.专有名词样本特征目标值（标签值）特征值 2.数据类型构成类型一：特征值+目标值目标值分为是离散还是连续獎型二：只有特征值，没有目标值 3.数据划分训练数据（训练集）构建模型 0.7--0.8 测试数据（测试集）模型评估 0.2--0.3

数据基本处理对数进行缺失值、去除异常值等处理

特征工程 1.定义把数据转换成为机器更容易识别的数据 2.为什么需要特征工程数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已 3.包含内容特征提取特征预处理特征降维

监督学习有特征值+目标值

线性回归（连续的）房价上升
离散（分类）输出 0或1 是否患有肿瘤

无监督学习
有特征值无目标值没有标准答案聚簇分类谷歌新闻推荐算法

半监督学习有特征值，但是一部分数据有目标值，一部分没有

强化学习动态过程，上一步数据的输出是下一步数据的输入四要素：agent, action,environment, Reward, 动态规划

分类模型评估准确率预测正确的数占样本总数的比例。精确率正确预测为正占全部预测为正的比例召回率正确预测为正占全部正样本的比例 F1-score 主要用于评估模型的稳健性 AUC指标主要用于评估样本不均衡的情况

回归模型评估均方根误差相对平方误差平均绝对误差相对绝对误差决定系数

拟合因为机器学习到的特征太少了，导致区分标准太粗糙，不能准确识别。

过拟合 (over-fitting)：所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中表现不佳。

欠拟合：在训练和测试表现都不佳（模型过于简单）

久拟合原因以及解决办法原因：学习到数据的特征过少解决办法： 1.添加其他特征项，有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。例如，“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段，无论在什么场景，都可以照葫芦画瓢，总会得到意想不到的效果。除上面的特征之外，“上下文特征”、“平台特征"等等，都可以作为特征添加的首选项。 2）添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。

过拟合原因以及解决办法原因：原始特征过多，存在一些嘈杂特征，模型过于复杂是因为模型尝试去兼顾各个测试数据点解决办法： 1）重新清洗数据，导致过拟合的一个原因也有可能是数据不纯导致的，如果出现了过拟合就需要我们重新清洗数据。 2）增大数据的训练量，还有一个原因就是我们用于训练的数据量太小导致的，训练数据占总数据的比例过小。 3）正则化 4）减少特征维度，防止维灾难

3.2 正则化类别 L2正则化作用：可以使得其中一些w的都很小，都接近于0，削弱某个特征的影响优点：越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象 Ridge回归岭回归 L1正则化作用：可以使得其中一些W的值直接为0，删除这个特征的影响 LASSO回归

正则化线性模型 1.Ridge Regression 岭回归就是把系数前面添加平方项然后限制系数值的大小 &值越小，系数值越大，∞越大，系数值越小 2.Lasso 回归对系数值进行绝对值处理由于绝对值在顶点处不可导，所以进行计算的过程中产生很多0，最后得到结果为：稀疏矩阵 3.Elastic Net 弹性网络是前两个内容的综合设置了一个r，如果r=0--岭回归；r=1--Lasso回归 4.Early stopping 通过限制错误率的阈值，进行停止

深度学习增加层数：通过更抽象的概念识别物体，器官层，分子层，原子层。增加结点数：增加同一层物质的种类。

卷积神经网络（CNN）：适用于处理图像数据
循环神经网络（RNN）：适用于处理序列数据，如文本、语音等
长短期记忆网络（LSTM）：是RNN的一种变体，适用于处理长序列数据，
转化器（Transformer）：适用于处理自然语言数据
生成对抗网络（GAN）：适用于生成新数据

单层神经网络 a. 最近单的神经网络的形式感知机 a. 两层的神经网络 b. 简单的二分类的模型，给定阀值，判断数据居于那一部分多层神经网络 a. 输入层 b. 输出层 c. 隐层：可以有多层，每一层的神经元的个数可以不确定

全连接层：第N层和第N-1层中神经元两两之间都有链接

激活函数作用：增加模型的非线性分割能力提高模型鲁棒性（稳健型）缓解梯度消失问题加速模型收敛等（加速模型训练）

常见的激活西数： sigmoid: (0,1) tanh:(-1,1) relu:max(0,x) ELU: a(e^x -1)

m 样板数量 x 输入特征 y 预测目标量 (x,y) 训练样本 (x^(i),y^(i)) 第i个特定样本

假设函数 ![[Pasted image 20221211141341.png]]

![[Pasted image 20221211141711.png]]

![[Pasted image 20221211143522.png]]